文章荐读 | 基于作者和研究主题的科研机构名称演化关系识别研究
文 章 荐 读
基于作者和研究主题的科研机构名称演化关系识别研究
胡潜, 吴茜, 董寒宇, 李静
华中师范大学信息管理学院,武汉 430079
摘要
因机构发展变迁而引发的科研机构名称演化,严重影响了基于机构名称所开展的信息检索、科研评价等知识服务的质量和效果。为此,本文提出了一种基于作者和研究主题的科研机构名称演化关系识别方法,以消解科研机构名称间的异质性,实现科研机构名称归一化。通过对科研机构名称演化在学术论文署名中的表现分析,本文构建了基于作者和研究主题的科研机构名称演化关系识别模型,对科研机构名称间的改名、拆分、合并和重组关系进行了识别,并基于小规模的学术论文数据对模型效果进行了验证。研究结果表明,本文提出的科研机构名称演化关系识别方法在一级和二级科研机构名称演化关系的识别中均能达到较好的准确率和召回率,并能够识别出一般性冷门科研机构之间的名称演化关系。
关键词
机构名称; 名称规范化; 作者共现度; 研究主题相似度
引用格式:
胡潜, 吴茜, 董寒宇, 李静. 基于作者和研究主题的科研机构名称演化关系识别研究[J]. 情报学报, 2023, 42(11): 1289-1299.
👈长按识别文章二维码查看全文
0
引言
机构名称是科研机构实体的重要属性信息,是机构内在规律以及特殊性的综合反映[1]。然而,随着时间的变迁,同一机构在不同时期的名称表述各异,机构的规范名称、曾用名等无法一一与机构实体建立精准映射,致使当前基于科研机构名称所展开的信息检索、计量评价、知识库构建等知识服务效果并不理想[2]。因此,为消解科研机构名称异质性、提升基于机构驱动的知识服务效果,需要对机构名称间的演化关系进行识别。
目前,在对科研机构名称演化关系的识别中,相较于直接抽取的方法,一种更加通用的识别思路是以学术论文作为数据源,基于发文作者进行机构关系识别。但其中存在问题:对于发文较少的机构,可识别提取的作者特征信息相对较少,无法有效识别冷门机构间的名称演化关系[3]。为此,本文从科研机构的作者和研究主题两个维度进行科研机构名称演化关系识别探究,消解因演化变迁所引起的科研机构名称异质问题,使机构名称与科研机构实体间建立精准映射,实现对机构及其知识资源的规范化组织,以进一步优化基于科研实体所开展的知识服务。
1
相关研究
目前,在机构名称识别和归一化的相关研究中,国内外学者们围绕机构名称的同义、层级和演化关系识别,进行了大量的理论和实践探究。
在机构名称同义关系识别方面,主要是通过编辑距离、规则和机器学习等方法识别机构的别名、简称,将其与机构规范名称形成映射。其中,具有代表性的方法有:①基于字符串匹配的方法,French等[4-5]利用编辑距离和Jaccard系数,通过计算机构名称字面的相似度对机构名称的同义关系进行了识别。当机构名称表述具有一定相似性时,该方法能够较好地实现同义名称识别。黄林晟等[6]基于编辑距离思想,提出了中文机构名称简称和全称的优化匹配算法,并通过实验证明该方法比原始的基于编辑距离的计算方法更为合理,匹配准确率更高。②基于规则方法,杨波等[7]、Caron等[8]、孙海霞等[9]、王锦华等[10]、高曼等[11]分别依据多源数据,利用从数据中获取的机构地区、机构地址、机构类别和机构命名特征等信息,人工构建规则库,通过关键词触发的形式对多个机构名称对应一个机构实体的现象进行了识别,使机构的简称、别名和全称等一一对应,为有效实现高校、军事医学机构等多类型科研实体名称规范化提供了参考。③基于机器学习的方法,Balsmeier等[12]、孙海霞等[13]、Cuxac等[14]、Jonnalagadda等[15]分别采用kNN(k-nearest neighbors)、k-means聚类、层次聚类、混合聚类等方法对机构名称进行同义关系识别,将机构名称的错误翻译、错误拼写、缩写、简称、别名等一一与规范名称之间进行映射,进一步推动实现了大规模机构的名称归一化。④基于深度学习的方法,孙源[16]、张建勇等[17]、Raman等[18]、Cetoli等[19]分别利用word2vec词向量模型、多重图注意力网络和双向长短时网络模型等方法对多源异构数据中的机构实体进行识别、消歧处理,有效提升机构名称规范数据库建设的规范性和全面性。
在机构名称层级关系识别方面,主要是基于机构属性特征识别机构实体间的隶属关系。其中,Jiang等[20]提出了一种基于标准化压缩距离的聚类方法来识别机构间的隶属关系,并以清华大学图书馆收录的10000篇论文中的机构信息作为数据集验证了效果;杨奕虹等[21]基于叙词表的知识组织方式,构建了中文机构名称的多层级词表,并以文献计量评价与机构科研绩效管理等场景为例,展示了词表的应用效果;Sun等[22]基于本体方法,依据从文献资源数据库中获取的作者与机构间的隶属关系,实现了对机构实体间的层级关系的识别。杨昭等[23-24]基于共现视角,通过机构名称实体边界识别、机构多层级词表编制和异质网络挖掘等方法,先后构建了基于共现关系和相似度的机构名称归一化模型与基于元路径的机构名称归一化模型,利用机构名称的层级结构,有效实现了对机构上下级隶属关系的识别。
在机构名称演化关系识别方面,主要是对机构名称间的改名、拆分、合并和重组关系进行识别。其中,贾君枝等[25]提出了一种利用TF-IDF(term frequency-inverse document frequency)和k-means算法的中文科研机构名称归一化实现方法,从机构作者共现角度识别机构间的改名关系,并在中国知网数据集上验证了实验效果。曾建勋等[26]通过构建基于知识组织的机构规范文档,依据机构规范名称、属性特征和关联关系,对机构名称间的同一关系、层级隶属关系、沿革关系和相关关系进行了识别。吕冬晴等[3]通过构建机构-作者向量与机构-年度向量,并在综合考虑两个向量相似度、机构名称映射关系以及作者绝对共现量的基础上,实现了对机构演变关系的识别。
总的来看,围绕机构名称归一化问题的研究已经取得了一定进展,特别是在机构同义关系和层级关系识别方面,但在机构名称演化关系识别方面,仍存在一定不足。目前,科研机构名称演化关系识别的基本思路是依据学术论文提取机构作者属性特征,通过机构、作者共现进行关系识别。然而,该方法虽然能够识别出热门机构间的演化关系,但对于非热门机构来说并不适用。一是当作者共现指标设置较低时,存在大量误召回,识别准确率低;二是当作者共现指标设置较高时,发文量少的机构会被直接过滤,影响识别效果。这主要是由于作者属性稳定性不足,仅依据作者属性特征无法有效实现对各类型机构名称演化关系的识别。
基于此,为增加机构特征表达的稳定性,本文在现有研究基础上,引入研究主题这一特征指标,综合从科研机构的作者和研究主题两个维度,利用复杂相似度和聚类算法进行科研机构名称演化识别研究。
2
科研机构名称演化在学术论文署名中的表现
目前,科研机构名称间的演化关系主要可划分为改名、拆分、合并和重组4种类型。①改名。机构由名称A更改为名称B时,机构间具有改名关系,其映射关系为1:1。②拆分。当机构A的部分或全部单位拆分为多个新机构时,机构间具有拆分关系,其映射关系为1:n。③合并。当多个机构合并为新机构A或并入已有机构B时,机构间具有合并关系,其映射关系为n:1。④重组。当多个机构间发生复杂更名、拆分、合并变化时,机构间具有重组关系,其映射关系为n:m[2-3]。
作为科研机构的重要研究成果,公开发表的学术论文中包含了开展名称演化关系探究所需的机构名称、作者、关键词、时间等信息。科研机构名称的演化是随着机构变迁而产生的,其发展具有时间跨度性。因此,为识别机构名称间的改名、拆分、合并和重组关系,本文依据一定时间年份内的学术论文数据,对其中科研机构名称演化的表现进行分析。
经分析发现,存在名称演化关系的科研机构主要在学术论文年发文量、学术论文署名作者和学术论文研究主题3个方面普遍具有相近的表现,具体阐述如下。
2.1 学术论文年发文量
对科研机构的发文量属性进行分析发现,科研机构名称的更变演化一定程度上体现在其年发文量的变化之中,即具有特定演化关系的科研机构间,其发文量在时间分布上具有特定的规律。当机构改名、拆分、合并为新机构且原机构名称未得到延用时,原机构的发文量在演变年份前后会出现“从有到无”的特点;对于演变而来的新机构,其发文量在变化年份前后会出现“从无到有”的特点。例如,西南农业大学和西南师范大学于2005年合并为西南大学,在2005年之前并没有以西南大学为单位发表的学术论文,在2005年之后西南农业大学和西南师范大学的发文量也屈指可数。此外,若机构在经历拆分、合并时,原机构名称得到了延用,此时署名为该机构的论文数量变化呈现以下特点:在一段时间内,机构的年发文量相对稳定,但在某一时间节点前后其发文量会产生“骤降”或“突增”。具体来说,当机构发生拆分时,其发文量在拆分年份及之后几年中会产生“骤降”现象;当机构发生合并时,其发文量在合并年份及之后几年中会产生“突增”现象。
由此可知,发生演化变迁的科研机构,其发文量变化存在“新增”“消失”“突增”和“骤降”4种特征类型。将存在名称演化关系的机构作为科研机构名称对,对名称对间两个机构发文量的变化模式做进一步分析,可以将科研机构名称对间的发文量变化模式总结为以下4种,具体如表1所示。
从表1可以看出,“消失-新增”模式主要对应3种具体的机构名称演化情况:一是机构A改名为机构B,则机构A和机构B之间具有改名关系;二是机构A拆分为新机构B和新机构C,则机构A与机构B、机构C之间具有拆分关系;三是机构A和机构B合并组成新机构C,则机构A、机构B与机构C之间具有合并关系。“骤降-突增”模式主要对应一种机构名称演化情况,即机构A一部分保留、另一部分合并到已有机构B中,则机构A与机构B间具有重组关系。“骤降-新增”模式主要对应一种机构名称演化情况,即机构A一部分保留,另一部分拆分为机构B,则机构A与机构B间具有拆分关系。“消失-突增”模式主要对应两种机构名称演化情况:一是机构A合并到已有机构B中,则机构A与机构B间具有合并关系;二是机构A拆分后,一部分并入已有机构B,另一部分并入已有机构C,则机构A、机构B与机构C之间具有重组关系。
2.2 学术论文署名作者
对一定时间内的学术论文作者数据进行分析发现,当机构发生演化变迁时,其作者属性具有以下特点:①从整体来看,演化变迁机构间的作者属性具有相对稳定性。对于科研机构来说,除正常的退休、毕业、调出和引进之外,隶属于同一机构的绝大多数成员在一定时间期限内的波动相对较小[25,27]。因此,对存在名称演化关系的科研机构来说,会存在部分相同的发文作者。②同一机构内,年发文作者存在人员更迭。在科研机构中,除高产出作者外,部分成员存在学术论文发表数量少、频率低的情况。因此,每年基于学术论文提取的作者数据,会存在一定的变化。③相对冷门机构的作者属性信息相对较少。对于实体规模较小、学术论文成果发表较少的相对冷门机构来说,从这类冷门机构所发表论文中能够提取的非重复作者数据相对较少。
2.3 学术论文研究主题
对一定时间内的学术论文研究主题进行分析发现,科研机构名称的更变演化在一定程度上体现在其研究主题的变化之中,即在具有特定演化关系的科研机构间,其研究主题会相对更加稳定,并不会随着时间变迁而发生较大的方向性转变[28]。具体来说,由于在科研机构中各个重要研究主题均是以科研团队的形式来完成的,而同一科研团队的研究主题和研究方向具有一定稳定性和延续性。因此,对于同一科研机构来说,无论是发生改名、拆分、合并还是重组,其一定存在一个或多个相同、相近的研究主题。
3
构建基于作者和研究主题的科研机构名称
演化关系识别模型
从科研机构在学术论文署名中的表现来看,受作者发文频率和数量的影响,仅基于科研机构作者属性进行机构名称演化关系识别,无法有效识别相对冷门的机构间的演化关系,而研究主题属性又不足以单独用来判断机构间的演化关系。因此,模型中将首先依据科研机构年发文量特点,提取潜在存在演化关系的候选科研机构名称对,然后进一步综合考虑科研机构中的作者和研究主题属性特征,来进行机构名称演化关系识别。模型结构如图1所示。
图1 科研机构名称演化关系识别模型
3.1 学术论文数据采集与预处理
考虑到科研机构名称演化具有一定的时间跨度性,本文选择一定时间跨度内的学术论文作为基础数据,为后续模块提供数据支撑。
在学术论文数据采集与预处理过程中,主要包含以下几个方面:①论文数据采集。从学术论文数据库中采集论文全文,以及文献来源、题名、年份、作者、单位和关键词等元数据字段信息。②数据过滤、清洗。过滤重复数据,并对所采集数据中的特殊标点符号、不完整信息等进行清洗。③机构别名、简称映射。基于主题词表、百度百科等外部知识库,对机构别名、简称和规范化名称构建映射关系。④数据拆分。参照龙存钰[29]的思路,以论文全文为基础数据,建立作者和机构间的对应关系,将所有论文参与者与其隶属机构进行映射,以(论文题名, 发表年份, {作者-机构, 作者-机构, …, 作者-机构}, 关键词, …, 文献来源)多元组的形式进行存储。
3.2 科研机构实体属性表示
对科研机构实体属性进行规范化表示,主要是依据机构间的隶属关系,对机构层级进行划分,识别提取一级、二级科研机构,并对提取科研机构的属性进行表示,采用机构的属性特点来表征机构。在此期间,先对科研机构名称层级进行识别,再采用多元组方式对各层级机构实体的年度发文量、机构成员和研究主题等属性进行规范化表示。
(1)科研机构名称层级识别
为实现各层级科研机构的提取,首先,依据机构的隶属关系,对科研机构名称层级进行识别。参照贾君枝等[25]的思路,利用现有的NLPIR(natural language processing and information retrieval)等词性标注和词频统计工具,通过词性特征分析,识别提取高频的机构尾缀标识词,构建机构名称特征词表。其次,依据特征词表,依次正向遍历机构名称字符串,进行机构名称层级识别,并以“/”“//”为一级机构和二级机构的标识符号,对匹配结果进行相应标注。最后,依据识别出的机构名称层级结构,分别提取机构名称字段中的一级、二级机构名称。
(2)科研机构属性规范化表示
针对提取的所有一级、二级科研机构实体,对其成员、研究主题、发文量等属性进行表示。具体的机构属性表示策略如下:①依据论文“年份”字段数据,统计各机构的年度发文频数,以表征机构的年发文量属性。②依据论文“作者”“年份”字段数据,将各机构同一年份中的作者数据进行合并和去重,以表征机构各年度的作者属性。③依据论文“关键词”“年份”字段数据,将各机构同一年的论文关键词进行合并,以表征机构各年度的研究主题属性。④以(发表时间, 作者, 研究主题, 年发文量)四元组形式对科研机构实体的属性进行表示。以武汉大学信息管理学院为例,机构属性的四元组表示如图2所示。
图2 科研机构实体属性四元组表示示例
3.3 科研机构名称演化相似度计算
在科研机构名称演化相似度计算的过程中,为提高模型效率、减少冗余计算,首先,基于机构年发文量,识别提取潜在存在演化关系的候选科研机构名称对。其次,综合作者和研究主题两个维度进行机构名称演化相似度计算,识别正式科研机构名称对,并对名称对间的具体演化关系进行识别。
(1)基于发文量变化的候选科研机构名称对识别
对于年发文量相对稳定、不符合上文所提出的消失、新增、突增和骤降4种类型中任何一种的机构,可以判断其并未发生机构演化变迁,与其他机构间的名称演化相似度为0,可直接过滤。
对于年发文量存在明显变化的机构,进一步基于其发文量变化类型和变化时间节点,识别提取其中潜在存在名称演化关系的机构,组成候选科研机构名称对,为后续计算机构名称演化相似度提供数据支撑。具体如下:①机构年发文量变化时间节点及变化类型标注。基于机构年发文量变化特征,将年发文量发生明显变化的年份记为时间节点Y,并分别将机构的发文量变化类型标注为“消失”“新增”“骤降”“突增”。②候选科研机构名称对识别。充分考虑学术论文发表的“滞后性”特点,设定阈值N,当两个机构时间节点满足|Y1-Y2|≤N,且两个机构的发文量变化属于表1中的任意一类变化模式时,将这两个机构识别为候选科研机构名称对。
需要说明的是,在“骤降”和“突增”发文量变化类型标注的过程中,具体阈值J的选择需结合实际情况来设定。此外,若机构实际经历了多次演化变迁,其名称存在复用等复杂变化时,虽然名称说法一致,但需要将其看作不同的科研机构实体来进行名称演化关系识别。
(2)基于作者和研究主题的科研机构名称演化相似度计算
为识别实际具有演化关系的正式科研机构名称对,需要先分别对上文提取候选科研机构名称对的作者共现度和研究主题相似度进行计算,再基于候选科研机构名称对的名称演化相似度值,来判断是否将其作为正式科研机构名称对。考虑到人员流动、作者同名、相对冷门机构的发文量较少等问题,模型在科研机构名称演化相似度计算这一环节中,将通过调节数据比例和阈值的方式来减少相关因素对识别效果的影响。
具体计算过程中,模型将首先采用滑动时间窗的方式,以T年作为时间窗,归并各机构T年间的所有作者、关键词信息。其中,对于消失、骤降型机构,归并的是Y年在内的前T年的数据;对于新增、突增型机构,归并的是Y年在内的后T年的数据。完成数据归并后,分别对候选科研机构名称对的作者共现度和研究主题相似度进行计算。
①候选科研机构名称对作者共现度计算。除偶然性同名因素外,对于论文作者这一属性来说,若作者的名称一致,则可判断两篇论文是同一作者,即在识别机构间相同作者的过程中,可直接基于字符串匹配的方法进行识别。
具体的候选科研机构名称对作者共现度计算策略设置如下:第一,依据上文时间窗策略,归并T年间的所有作者信息;第二,设定机构作者绝对共现量阈值G,对于候选科研机构名称对中作者绝对共现量小于G的直接过滤;第三,对提取的各个机构的作者数据进行去重处理,并统计T年间各机构的发文作者数量Num,以及候选科研机构名称对中两个机构间的作者绝对共现数量Nsame,进行候选科研机构名称对作者共现度计算。具体公式为
其中,SA表示候选科研机构名称对的作者共现度;Num1、Num2分别表示候选科研机构名称对中的各机构的发文作者数量;Nsame表示两个机构单位中的作者绝对共现数量。
②候选科研机构名称对研究主题相似度计算。对于作者远超上千人的大规模机构来说,其研究主题可能相对较为广泛,涉及多个研究主题。例如,“武汉大学”是一级机构单位,研究主题包含“信息服务”“晶体结构”“遥感影像”等。对于作者数量较少的小规模机构来说,其研究主题方向相对集中一致。例如,“东莞职业技术学院图书馆”是二级机构单位,研究主题方向主要是“高职院校图书馆”。因此,为计算不同规模机构间研究主题的相似度,先通过聚类方法把机构的论文关键词分为多个类团,再以类团中的核心词作为机构研究主题计算其相似度。
考虑到部分科研机构在早年间学术论文发表的频率和总量相较于当前来说会相对较低,具体的候选科研机构名称对关键词相似度计算策略设置如下:第一,依据上文时间窗策略,归并T年间的所有关键词信息;第二,基于论文关键词进行科研机构研究主题聚类,采用类似single-pass的聚类方法,不指定类的数量,而是依据一定的度量方法直接计算关键词间的相似度实现聚类,形成多个簇,并将每一个簇看作机构的一个研究主题;第三,研究主题相似度计算,先采用词嵌入模型获取研究主题的词向量表示,再依据余弦相似度计算方法,计算机构对间各个研究主题的相似度。具体公式为
其中,Sk表示候选科研机构名称对间各研究主题的相似度;M、Z分别表示候选机构对中的各机构的研究主题。
③科研机构名称演化相似度计算。由于仅依据作者或是研究主题均无法有效识别机构间的名称演化关系,将综合考虑作者和研究主题两个因素进行科研机构名称演化相似度计算,并基于相似度值判断识别正式科研机构名称对。设置作者共现度阈值A,研究主题相似度阈值K,将机构名称演化相似度表示为Sgroup,当且仅当候选科研机构对的作者共现度和至少一个研究主题相似度同时满足阈值条件时,该科研机构名称对的Sgroup值为1,识别其为正式科研机构名称对。具体公式为
其中,SA'表示候选科研机构名称对的作者共现度SA与阈值A的比较结果;SK'表示机构各个研究主题相似度Sk与阈值K的比较结果;Sgroup表示科研机构名称演化相似度。当且仅当SA'与SK'的乘积Sgroup为1时,识别该机构对为具有实际演化关系的正式科研机构名称对。
3.4 科研机构名称演化关系识别
对于正式科研机构名称对,将基于科研机构年发文量变化模式和名称映射关系两个指标进行演化关系识别。具体如表2所示。
4
实 验
为验证上文所构建演化关系识别模型的效果,本文以信息资源管理(原图书情报与档案管理)学科的学术论文为例,进行实验效果验证。
4.1 数 据
考虑到机构的演化变迁存在一定的时间跨度,在实验数据选择和采集的过程中,主要采集了CSSCI(Chinese Social Sciences Citation Index)数据库收录的1996—2021年的信息资源管理(原图书情报与档案管理)学科领域的学术论文数据。首先,采集刊目包括《大学图书馆学报》《国家图书馆学刊》《情报科学》《情报理论与实践》《情报学报》《情报杂志》《情报资料工作》《数据分析与知识发现》《图书馆》《图书馆工作与研究》《图书馆建设》《图书馆论坛》《图书馆学研究》《图书馆杂志》《图书情报工作》《图书情报知识》《图书与情报》和《中国图书馆学报》18本核心期刊。其中,采集的学术论文元数据字段包含题名、年份、作者、单位和关键词等。
其次,基于上文模型中的策略,对采集数据进行过滤、清洗、别名、简称映射等预处理。最后,共得到159195条有效数据作为实验基础数据。
4.2 实验过程
该实验依据上文所构建的科研机构名称演化关系识别模型展开,对于过程中完全一致的环节,在此不再重复说明,仅对实验中参数的优化设置进行详细说明。
4.3 结果与分析
依据上文构建模型和最终参数设置,对样本数据中的科研机构进行名称演化关系识别,最终识别的正式科研机构名称对的演化关系如表3所示。
从表3可以看出,科研机构名称对“广东商学院-广东财经大学”“安徽财贸学院-安徽财经大学”“武汉大学/大众传播与知识信息管理学院//-武汉大学/信息管理学院//”的年发文量变化模式为“消失-新增”,映射关系为1:1,识别其机构对间机构具有改名关系;科研机构名称对“郑州工业大学-郑州大学”“吉林工业大学-吉林大学”“长春科技大学-吉林大学”“白求恩医科大学-吉林大学”的年发文量变化模式为“消失-突增”,映射关系为n:1,识别其机构对间机构具有合并关系。
为了进一步验证本文提出的科研机构名称演化识别策略的效果,选择吕冬晴等[3]提出的方法进行对比分析。以准确率、召回率和F1值作为最终效果评价指标,对两种科研机构名称演化识别方法的实验效果进行对比,结果如表4所示。
在实验数据集中,一共有32对实际具有改名关系的二级科研机构名称对,以及113对实际具有演化关系的一级科研机构名称对。其中,包含改名关系83对,拆分关系2对,合并关系28对。从具体的科研机构名称对演化关系识别结果来看,本文模型正确识别出实际具有演化关系的科研机构名称对共131对。其中,识别正确的改名关系100对,合并关系14对,将其他演变关系误判为改名关系的有17对。机构-作者向量方法识别出实际具有演化关系的科研机构名称对共115对。其中,识别正确的改名关系90对,合并关系8对,将其他演变关系误判为改名关系的有17对。科研机构名称对演化关系识别结果如表5所示。
由表4和表5可知,科研机构名称演化关系的识别中,相较于“机构-作者向量”对比方法,本文模型的识别效果相对较好。在一级机构的识别中,本文模型的准确率、召回率和F1值分别提升了0.022、0.053和0.036,并成功识别出了对比方法中未能识别的“长春师范大学-长春师范学院”“长春科技大学-吉林大学”等6个科研机构名称对间的演化关系。对一级机构的发文量和作者绝对共现度指标进行分析发现,大部分机构的发文量相对较高,能够从学术论文数据中提取到相对丰富的作者特征信息;而本文模型识别效果优于对比方法的部分,主要是识别出了发文量较少、作者绝对共现度较低的、相对比较冷门的一级机构间的名称演化关系。
在对二级科研机构名称演化关系的识别中,本文模型在召回率和F1值的效果都明显优于对比识别方法,特别是召回率显著提升了0.313。同时,相较于对比方法,本文模型还成功识别出了“电子科技大学/政治与公共管理学院//-电子科技大学/公共管理学院//”“四川大学/工商管理学院//-四川大学/商学院//”等10个科研机构名称对间的演化关系。对实验数据进行分析发现,除武汉大学信息管理学院等个别机构外,二级科研机构的发文量普遍较低,能够提取的作者信息较少。相较于本文模型,对比实验方法仅基于少量机构作者特征数据很难对机构名称对间的实际演化关系进行有效识别。
此外,如“西藏民族学院-西藏民族大学”和“中南工业大学-中南大学”等多个机构对的识别结果所示,两种识别策略在具体实验过程中,都将这些机构名称对的拆分、合并等演化关系误判为了改名关系。通过数据核查与分析发现,出现这种识别错误的原因是实验数据集中不包含部分相关机构的发文数据,无法提取出“西藏民族学院-贵州大学”“湖南医科大学-中南大学”以及“长沙铁道学院-中南大学”等机构名称对。因此,本文模型虽然能够识别出机构名称间具有演化关系,但依据关系映射指标,将其演化关系错误识别为了改名关系。
基于多个角度对实验结果的对比分析可知,本文所构建的基于作者和研究主题的科研机构名称演化关系识别模型,在机构演化关系的识别中受机构发文量影响较少,能够通过小规模语料数据,对一般以及相对冷门的科研机构的名称演化关系进行有效识别。
5
结 语
针对由机构发展变迁而引发的名称演化问题,本文提出了一种基于作者和研究主题的科研机构名称演化关系识别方法。基于数据集进行实验验证发现,本文模型无论是在一级研机构还是二级科研机构的名称演化关系识别中,相较于对比方法,效果均有所提升,尤其是二级机构的召回率从0.531提升为0.844。该方法能够通过小规模的语料数据,较好地识别出相对冷门的科研机构之间的名称演化关系,将同一机构不同时段、不同表达形式的规范化和非规范化机构名称进行关联映射,从而进一步优化基于科研机构的信息检索和知识发现服务。
但本文也存在一定的局限性,需要在后续研究中进一步优化。在机构作者共现度计算中,需要进一步减少流动性较强的学生作者数据,稳定作者数据比例,以提升识别效果;在机构研究主题相似度计算中,需要进一步从语义角度加强考虑学术论文关键词的相似性;针对发文量极少的冷门科研机构,需要进一步进行模型优化,以识别其名称演化关系。
参考文献
[1] 叶光辉, 彭泽, 陈国梁, 等. 学术文献中的知识单元抽取及其分布特征识别研究[J]. 情报理论与实践, 2023, 46(4): 90-98.
[2] 曾建勋, 贾君枝 . 机构名称规范数据的语义模型构建[J]. 大学图书馆学报, 2019, 37(1): 42-47.
[3] 吕冬晴, 陆红如, 成颖, 等. 基于机构-作者向量的科研机构名称演化识别方法研究[J]. 情报学报, 2020, 39(6): 565-578.
[4] French J C, Powell A L, Schulman E, et al. Automating the con‐struction of authority files in digital libraries: a case study[C]// Proceedings of the International Conference on Theory and Prac‐tice of Digital Libraries. Cham: Springer, 1997: 55-71.
[5] French J C, Powell A L, Schulman E. Using clustering strategies for creating authority files[J]. Journal of the American Society for Information Science and Technology, 2000, 51(8): 774-786.
[6] 黄林晟, 邓志鸿, 唐世渭, 等. 基于编辑距离的中文组织机构名简称-全称匹配算法[J]. 山东大学学报(理学版), 2012, 47(5):43-48.
[7] 杨波, 杨军威, 阎素兰. 基于规则的机构名规范化研究[J]. 现代图书情报技术, 2015(6): 57-63.
[8] Caron E, Daniels H. Identification of organization name variants in large databases using rule-based scoring and clustering: with acase study on the web of science database[C]// Proceedings of the 18th International Conference on Enterprise Information Sys‐tems. Setúbal: SciTePress, 2016: 182-187.
[9] 孙海霞, 王蕾, 吴英杰, 等. 科技文献数据库中机构名称匹配策略研究[J]. 数据分析与知识发现, 2018, 2(8): 88-97.
[10] 王锦华, 陈锐, 冯占英, 等. 基于多源数据融合的军事医学机构名称规范研究[J]. 中华医学图书情报杂志, 2020, 29(2): 52-57.
[11] 高曼, 刘扬, 姚克宇, 等. 基于规则和机构词表的中医药机构名称 规 范 化 研 究 与 应 用[J]. 国 际 中 医 中 药 杂 志, 2022, 44(6):685-689.
[12] Balsmeier B, Assaf M, Chesebro T, et al. Machine learning and natural language processing on the patent corpus: data, tools, and new measures[J]. Journal of Economics & Management Strategy,2018, 27(3): 535-553.
[13] 孙海霞, 李军莲, 吴英杰 . 基于 k-means 的机构归一化研究[J].医学信息学杂志, 2013, 34(7): 41-44, 71.
[14] Cuxac P, Lamirel J C, Bonvallot V. Efficient supervised and semisupervised approaches for affiliations disambiguation[J]. Sciento‐metrics, 2013, 97(1): 47-58.
[15] Jonnalagadda S R, Topham P. NEMO: extraction and normaliza‐tion of organization names from PubMed affiliation strings[J]. Jour‐nal of Biomedical Discovery and Collaboration, 2010, 5: 50-75.
[16] 孙源. 基于Word2Vec的SCI地址字段数据清洗方法研究[J]. 情报杂志, 2019, 38(2): 195-200.
[17] 张建勇, 钱力, 于倩倩, 等 . 科研实体名称规范的研究与实践[J]. 数据分析与知识发现, 2019, 3(1): 27-37.
[18] Raman N, Bang G, Nematzadeh A. MultiGraph attention network for analyzing company relations[C]// Proceedings of the 2019 8th International Conference on Computing and Pattern Recognition.New York: ACM Press, 2019: 426-433.
[19] Cetoli A, Akbari M, Bragaglia S, et al. Named entity disambigua‐tion using deep learning on graphs[EB/OL]. (2018-10-22) [2022-10-11]. https://arxiv.org/pdf/1810.09164.pdf.
[20] Jiang Y, Zheng H T, Wang X M, et al. Affiliation disambiguation for constructing semantic digital libraries[J]. Journal of the Amer‐ican Society for Information Science and Technology, 2011, 62(6): 1029-1041.
[21] 杨奕虹, 李雅萍, 张立丽, 等. 机构多层级词表的编制及在文献计量评价与科研绩效管理中的应用[J]. 数字图书馆论坛, 2013(6): 57-63.
[22] Sun H X, Li J L, Wu Y J, et al. Using an ontology-based ap‐proach to handle author affiliations in a large biomedical citation database[J]. Studies in Health Technology and Informatics, 2017,245: 1338.
[23] 杨昭, 任娟 . 中文文献题录数据机构名称归一化研究[J]. 图书情报工作, 2020, 64(4): 95-102.
[24] 杨昭 . 基于元路径的机构名称归一化研究[J]. 情报学报, 2020,39(10): 1069-1080.
[25] 贾君枝, 曾建勋, 李捷佳, 等 . 科研机构名称归一化实现[J]. 图书情报工作, 2018, 62(13): 103-110.
[26] 曾建勋, 郭红梅. 基于知识组织的机构规范文档构建方法研究[J]. 中国图书馆学报, 2021, 47(1): 61-75.
[27] 刘进, 沈红 . 中国研究型大学教师流动: 频率、路径与类型[J].复旦教育论坛, 2014, 12(1): 42-48, 92.
[28] Zehnalova S, Horak Z, Kudelka M, et al. Evolution of author’s topic in authorship network[C]// Proceedings of the 2012 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. Piscataway: IEEE, 2012: 1207-1210.
[29] 龙存钰 . 基于期刊论文的科研人员属性信息抽取及关系发现[D]. 武汉: 华中师范大学, 2022.
制版编辑 | 李 静
审核 | 王海燕
国家自然科学基金管理学部A类期刊
全国中文核心期刊
CSSCI来源期刊
《中国人民大学复印报刊资料》重要转载来源期刊
CSTPCD(中国科技论文与引文数据库)收录期刊
NSSD (国家哲学社会科学学术期刊数据库)
长按扫描二维码 | 关注我们
情报学报官网:qbxb.istic.ac.cn
邮箱:qbxb@istic.ac.cn
电话:010-68598273
欢迎投稿!
【免责声明】本公众号主要发布《情报学报》期刊的录用文章,或转载其他媒体与网站的图文资讯。文章仅代表作者本人观点,本公众号对文中陈述、观点判断保持中立。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。抄袭本文至其他渠道者引发的一切纠纷与本公众号平台无关。